查看原文
其他

如何成为译后编辑高手?这些MT错误你来找茬!

同济22MTI学生 海上技客
2024-09-09




轶闻一则


巴西著名球星罗纳尔迪尼奥(小罗)曾在其认证账号中发布了一条微博,

网友却纷纷“劝删”并评论:

“小罗,你的账号被盗了吗?”

而这条让人忍俊不禁的微博背后的罪魁祸首就是Facebook机翻。


有道是:

机翻频频出笑话,

心中担忧放不下。

如何一键解烦恼?

机翻硬伤来找茬

01

MTPE=1+1>2?

The first part

     机器翻译技术在近年来取得了长足发展,目前机器翻译的准确率已经大幅提升。但是,机器翻译仍有瓶颈,哪怕90%的内容都不出错,仍然会在最后一公里卡壳,不是需要人工查漏补缺,就是弄出令人尴尬的错误。

     因此MTPE(机器翻译结合译后编辑)自然成为当下的主流选择。但MTPE不是万能药,如何结合两种模式实现1+1>2的效果?MT和PE都需不断完善、动态发展。


或许我们可以......


通过测试找出MT的典型错误

最大限度减轻人工译员压力

产出优质译文

02

MT典型错误有哪些?

The second part

话不多说,先上测试结果!

     原来,MT译文最容易在:准确性、流畅性以及术语方面出错。错误分析是判断MT译文质量的重要因素,也是我们测量不同领域PE难度的主要指标。

     23位同济大学2022级MTI学生在YiCat平台上选取69篇文本进行MT译文测试并统计错误类型。使用的八大MT引擎分别为百度翻译、有道翻译、小牛翻译、腾讯翻译君、阿里翻译、微软翻译、亚马逊翻译和火山翻译。

     文本题材涵盖工程、财经、互联网、法律、医学和娱乐六大领域。每篇文本的易读性(Reading Ease Score)在35-45分之间,便于读者理解。总计字数超7万字。每篇文本的测试时间大约为30-35分钟。


/////    

举个例子

一起来围观测试中机翻的翻车现场~

     YiCat是一款目前被广泛使用的轻量级的计算机辅助翻译平台,译员可以对机器预翻译的译文进行错误类型标注。

     YiCat平台将主要的译文修改类型规定为以下八大类型:

<<< 滑动查看更多图片 >>>

     除了规定八类修改类型以外,YiCat平台还细分出错误类型的严重程度标注,包含建议性修改、轻微错误、重大错误,进一步量化了MT的错误类型。

     我们通过引入加权因子,将重大错误、轻微错误、建议性修改化归成严重错误,提出下面的公式:

因此,我们得出以下数据:

             一级分类                              二级分类

注:该数据为69篇不同题材测试文本的MT译文错误类型占比。

03

MT硬伤已找到,

人工译员解烦恼!

The last part


    可见,MT译文最容易在:准确性、流畅性和术语上出错,哪有什么取代翻译的人工智能,不过是译审在负重前行。

    既然MT硬伤找到了,那么如何最大限度减轻人工译员压力呢?


针对准确性:MT强化大型语料库,训练准确的语境词向量,进行词义消岐;

针对流畅性:译员可从译前编辑下手,关注句子的语序差异、格式标点等,给机器翻译减负;

针对术语:MT引入更多相关领域术语资源词典,如:工程、财经、互联网、法律、医学和娱乐等领域。

     我们已经进入人机共译时代,机器翻译与人工译员将动态发展,共同进步。希望本文能够引发学界和业界对机器翻译素养的更多关注,促进机器翻译技术更好地服务于人类社会。


文案 | 李云婷 李睿 罗世卫

排版&封面 | 王天穹

审校 | 李睿

修改于
继续滑动看下一个
海上技客
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存